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Метод оценки кластерной структуры 
и кластеризации данных 


В статье рассматривается проблема разработки методов кластеризации, которые являются устойчивыми к 
инициализации (количество кластеров и начальные параметры кластеров), к различным по объему 
кластерам, к выбросам в данных. Предлагается метод оценки кластерной структуры и кластеризации 
данных, который основан на расчете значений близости объектов данных в многомерном признаковом 
пространстве. Метод является устойчивым к инициализации параметров кластеризации, к выбросам в 
данных и позволяет определять кластерную структуру и количество кластеров в ходе самоорганизации 
объектов данных. 


Введение 


Одним из первых шагов при анализе набора данных с целью выявления новых 
знаний или скрытых закономерностей в данных является кластеризация. Процесс 
кластеризации направлен на определение групп данных, которые являются схожими 
согласно некоторой мере близости. Последующий анализ кластерной структуры данных 
позволяет выявить общие функциональные или иные свойства объектов данных, при- 
надлежащие отдельным кластерам, и впоследствии использовать результаты для 
сокращения размерности, выявления информативных признаков, характеризующих 
отдельные объекты данных и предсказания свойств новых объектов данных по набору 
признаков. 

Все существующие кластерные методы можно классифицировать на иерархические 
методы кластеризации [1-3], методы вероятностной кластеризации [4], [5], методы 
кластеризации, основанные на оптимизации различных целевых функционалов [2], 
[6], нейросетевые методы кластеризации, как например, самоорганизующиеся карты 
Кохонена [7], [8], методы кластеризации с использованием теории графов [9], методы, 
основанные на плотности распределения данных [10], [11] и т.д. Различные методы, 
разработанные в рамках каждой из вышеперечисленных групп, не являются одина- 
ково эффективными при анализе произвольного набора данных. Каждый из методов 
имеет преимущество при решении определенного круга практических задач. Наиболее 
широко на практике используются оптимизационные методы, одним из первых 
представителей которых является метод четкой кластеризации К-средних (НСМ) [12], 
метод нечеткой кластеризации С-средних (ЕСМ) [6], [13], метод вероятностной 
кластеризации РСМ [14] и метод МС [15]. Однако большинство из разработанных на 
сегодня кластерных методов в той или иной степени являются неустойчивыми. Устой- 
чивость метода кластеризации включает следующие аспекты [16]: 1) устойчивость к 
инициализации (количество кластеров и начальные параметры кластеров), 2) устой- 
чивость к различным по объему кластерам (возможность определить кластеры, 
имеющие разные объемы), 3) устойчивость к выбросам в данных (не должны оказывать 
влияние на результат кластеризации). 
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Таким образом, актуальным является разработка таких методов кластеризации, 
которые являются устойчивым согласно всем трем указанным аспектам и в то же 
время являются достаточно простыми в вычислительном плане, что позволит 
использовать их для анализа больших объемов многомерных данных. 

Цель работы авторами предлагается метод оценки кластерной структуры и 
кластеризации данных (МКК), который основан на оценке близости объектов 
данных в многомерном признаковом пространстве. Данный метод является устой- 
чивым к инициализации параметров кластеризации: начальному положению центров 
кластеров и количеству кластеров, а также к случайным выбросам в данных. Соглас- 
но предложенному методу кластерная структура и количество кластеров в данных 
определяются автоматически в ходе самоорганизации объектов данных. Для опреде- 
ления локально-оптимального количества и состава кластеров используется метод 
агломеративной иерархической кластеризации [3]. 


Определение кластерной структуры данных 


Основным этапом реализации предложенного МКК является осуществление 
кластеризации данных путем оптимизации (максимизации) следующего функционала: 


[> ВЫ 


Е®)=>.>. вк", (1) 


27 


я > > 1 2 
где х, — /Й объект данных, представляющий собой точку х, В В 


1 2 
т-мерном признаковом пространстве; у, = (ууу; и 
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) — центр 12-го кластера; с — 
количество кластеров; д — дисперсия всего набора данных Х и у-— 


оцениваемый параметр кластеризации. 
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Рисунок 1 — Набор данных Оайа1, состоящий из трех кластеров 
2 
и 
9 


1-го кластерного центра у, , которая используется в работе [17]. Таким образом, целью 


Функция /(у,) =ехр- представляет собой меру сходства объекта х, и 


оптимизационного кластерного алгоритма, определяемого функционалом (1), является 
поиск таких значений центров кластеров ъ,, = 1, ....С › КОТОрые максимизируют полную 


меру сходства объектов данных и кластерных центров. В настоящей работе ИСПОЛЬ- 
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2 
зуется евклидово расстояние | — у, между объектом данных х . и кластерным центром 


у,, однако вместо него можно использовать любую приемлемую меру расстояния. 


Основное внимание необходимо обратить на выбор параметра у функционала (1). 
Данный параметр позволяет определить положение локальных экстремумов функцио- 
нала (1) и таким образом оценить плотность распределения данных в окрестности 
каждого объекта набора данных. Для иллюстрации влияния значения параметра уна 
положение локальных экстремумов функционала (1) рассмотрим набор данных 
Раа1, представленный на рис. 1. 

Рассчитаем для каждого объекта х,,А=|....‚и набора данных аа! значение 


следующей функции, определяющей общую меру сходства объекта х, со всеми 
остальными объектами данных: 


2 7 
[еж] 


Ебь)= У екр- ©) 


Значение функции ЁР(х,) в точке х, можно считать оценкой плотности распреде- 
ления данных в окрестности объекта х,. Чем ближе находится объект данных х, к 
центру кластера, тем больше значение Р(х, ) , так как больше объектов данных окружает 


х, . На рис. 2 представлен график функции (2) для значений параметра уе {1, 5,10, 20} | 


а) Ь) 


4 


Рисунок 2 — Графики функции Р(х,) дляа) у=1; 5) у=5; с) у=10; 4) у=20 


Согласно рис. 2 функция Р(х,) имеет один локальный экстремум при у=1, 
при у=5 на графике функции Е(х,) можно выделить два экстремума, и только при 
значении у =10 на графике появляются три локальных экстремума, соответствующие 
значениям функции Р(х,) в центрах трех реально существующих кластеров набора 


444 «Искусственный интеллект» 472010 


Метод оценки кластерной структуры и кластеризации данных БН 


данных Оаа1. При дальнейшем возрастании параметра у происходит выделение 
избыточных локальных экстремумов. Таким образом, параметр у позволяет задавать 
границу кластера в окрестности точки х, набора данных Оайа1. Проблема состоит в 
определении такого значения параметра у, которое позволит определить действитель- 
ную кластерную структуру данных для произвольного набора. Выбор слишком боль- 
шого значения у приведет к выделению большого количества малых кластеров в 
данных, где каждый объект будет представлять отдельный кластер, и функция ЁР(х,) 
будет иметь большое количество локальных экстремумов. Слишком малое значение у 
приведет к выделению единственного локального экстремума, даже в случае наличия в 
данных более одного кластера. При визуальном анализе рис. 2 значения функции Р(х,) 
при У=1 и у=5 имеют значительные отличия, тогда как значения Ё(х,) при у=5 
и У=10 отличаются незначительно. Поэтому для определения у имеет смысл рас- 
считывать коэффициенты корреляции между значениями функции Р(х,) для каждой 
пары последовательных значений параметра у, где каждое последующее значение у 
смещено относительно предыдущего на некоторый шаг (в нашем исследовании вы- 
бран шаг, равный 5). Как только значение из последовательности рассчитанных 
коэффициентов корреляции превысит некоторое пороговое значение, то можно счи- 
тать, что функция Р(х,) с соответствующим значением параметра у определяет 
реальную кластерную структуру набора данных. Таким образом, можно считать, что 
последующее увеличение у не привнесет полезной информации в оценку кластерной 
структуры данных, а только приведет к появлению дополнительных малых локаль- 
ных экстремумов. На рис. 3 представлен график зависимости значений коэффициента 
корреляции р от значений параметра 7 для набора данных Раа1. Согласно результатам 
экспериментов в качестве порогового значения коэффициента корреляции целесо- 
образно выбирать значение ри е [0,97, 0,99]. 


Рисунок 3 — График зависимости коэффициента корреляции р от параметра у 


Согласно рис. 3 для параметра увыбирается значение 10, т.к. соответствующее 
значение р превышает пороговое значение ру Е [0,97, 0,98] : 


«Штучний 1нтелект» 42010 445 


5 | Новоселова Н.А., Том И.Э. 


Кластеризация данных 


Согласно предложенному авторами МКК после проведения оценки кластерной 
структуры анализируемого набора данных и выбора соответствующего значения 
параметра уосуществляется кластеризация данных путем оптимизации функционала 
ЕС») (1). Необходимое условие максимизации функционала (1) следующее: 


АЕ(у) _ 
а 


1 


0. 


После дифференцирования функционала (1) относительно центров кластеров 
У,1=1,...,с получаем 


2 \7 

ЧЕ |-> 
—^=)2.—.[х,-м, || ехр- 3 
4» 2. р ® 

и следовательно необходимое условие максимума функционала (1) следующее: 
2\/ 
У" хех Сыч 
АУ р б 

= (4) 
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хе 


Для поиска оптимальных значений у,1=1,....с используется следующий итера- 


ционный алгоритм, состоящий из выполнения двух последовательных шагов, соот- 
ветствующих выражению (4): 

Инициализация начальных центров кластеров у,1=1....,с и задания значения 
е = 0,01 для условия останова алгоритма. 

пег=0 — счетчик итерации алгоритма. 


т 
Шаг 1. Рассчитать значение меры сходства );“”* =ехр| -—^—_—_—_ | для 


каждого объекта данных х,]=1,...,П и каждого центра кластера у,1=1....,с; 


д — дисперсия всего набора данных. 
У. и | 
пе’ ЛЕ Я у 
1 № р а. у 
ай 


пег+1 + 
<е, то окончание алгоритма и у" = у" 1=1,...,С 


Шаг 2. Рассчитать новое значение центра кластера у 


Пег-+1 __ „,Иег 


У У 


Если тах | 
7 


йег йег-+1 


Иначе у," =у,”" 1=Ъ,...,с и перейти к шагу [. 


7 
Для того чтобы в процессе кластеризации были обнаружены все реально име- 
ющиеся в наборе данных кластеры, в качестве начальных центров кластеров выбира- 


0.0 0 
ются все объекты данных, т.е. полагается, что с=и и (у,у,,...,\,) (А аах, 


Такая инициализация начальных центров кластеров гарантирует то, что в процессе 
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кластеризации будут найдены все локальные экстремумы функции Е(х,) и коли- 


чество найденных экстремумов будет соответствовать количеству реальных кластеров 
в наборе данных. Такого рода инициализация позволяет избежать произвольного 
определения количества кластеров в данных и является устойчивой к выбору началь- 
ных положений центров кластеров. Инициализация кластерного алгоритма с использо- 
ванием большого числа кластеров применяется в методах прогрессивной кластериза- 
ции [18]. При проведении кластеризации авторами были исключены из рассмотрения 
в качестве начальных центров кластеров объекты данных, которые имели значение 
функции Е(х,) меньше 10-го перцентиля значений Р(х,), К =1,...,п. Последователь- 


ное изменение положений центров кластеров в результате кластеризации набора дан- 
ных Оайа1 приведено на рис. 4. 
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Рисунок 4 — Положение центров кластеров набора данных Байа1 после 
а) 5 итераций; 5) 10 итераций; с) 20 итераций; 4) конечное положение 


Как видно из рис. 4, оптимальное количество кластеров для набора данных Па] 


равно трем. Таким образом, при выборе начальных положений центров кластеров 
0 > 

(У ,У,....\0) = (х,х,....х,) алгоритм кластеризации является устойчивым к иници- 

ализации. 


Для автоматизации определения оптимального количества кластеров с ор конечные 


{2 
положения центров и кластеров группируются с использованием метода агломера- 
тивной иерархической кластеризации. Результат иерархической кластеризации конечных 
положений и центров кластеров для набора данных Ра! представлен на рис. 5, 
согласно которому можно выделить три хорошо различимых кластера данных. 
Каждый кластерный центр (у›,1»,...,%,) = (х,,х,,....х,) соответствует отдельному 
объекту данных, таким образом иерархическая кластеризация п кластерных центров 
позволяет одновременно с оптимальным количеством кластеров с„„ определить их 


состав, т.е., какие объекты данных входят в состав каждого из полученных кластеров. 
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0 О 


Рисунок 5 — Иерархическое дерево для набора данных Вайа1 


Результаты кластеризации данных Раа1 с использованием МКК приведены на 
рис. 6. Для сравнения на рис. 7 — 8 приведены результаты кластеризации с исполь- 
зованием метода ЕСМ и метода РСМ при с =3 в случае выбора параметров границ 
кластеров 77,,1=1,...,с согласно [14]. 
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Рисунок 7 — Результаты кластеризации Раёа1 с помощью ЕСМ 


Из рис. 7 видно, что в результате кластеризации данных Раа1 методом ЕСМ наи- 
больший по объему кластер разделяется на два кластера, а два малых кластера слива- 
ются в один. Таким образом, метод ЕСМ не позволяет распознать в данных различ- 
ные по величине кластеры. 
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Рисунок 8 — Результаты кластеризации Раа1 с помощью РСМ 


Из рис. 8 видно, что с использованием метода РСМ набор данных Райа1 разде- 
ляется на 3 кластера, однако центры меньших по объему кластеров смещены. При- 
чиной такого результата является выбор параметров границ кластеров 77, 1=1....,с. 


Согласно предложенному авторами методу объекты данных самоорганизуются 
в процессе кластеризации, группируясь в областях с наибольшей плотностью данных, 
что позволяет достаточно точно определить положение центров кластеров и их коли- 
чество. 


Анализ устойчивости метода к выбросам в данных 


В данном разделе проводится анализ устойчивости предложенного метода оценки 
кластерной структуры и кластеризации данных к выбросам в данных. В работе [17] 
было отмечено, что использование вместо евклидовой экспоненциальной меры рассто- 
яния между объектами позволяет повысить устойчивость кластерного алгоритма к 
выбросам в данных. Таким образом, предполагается, что предложенный авторами метод 
кластеризации, который основан на оптимизации функционала (1), являющегося 
суммой экспоненциальных расстояний между объектами данных и кластерными цен- 
трами обладает свойством устойчивости. Для проверки этой гипотезы нами был 
проведен эксперимент с использованием наборов данных Ваа2 и Ра3, представ- 
ленных на рис. 9. 

Набор данных Оаёа3 отличается от набора данных Оайа2 тем, что один из 
выбросов удален на большее расстояние от центров кластеров. Результаты кластеризации 
наборов данных с использованием предложенного метода приведены на рис. 10. Для 
сравнения результаты кластеризации наборов данных методами ЕСМ и РСМ 
приведены на рис. 11 — 12. Положения центров кластеров: реальные и полученные в 
результате кластеризации для наборов данных Паёа2 и Ба3, приведены в табл. 1 — 2. 
Из рис. 10 видно, что положение центров кластеров достаточно устойчиво при удалении 
выброса от центров основных кластеров. В отличие от этого согласно рис. 11 при 
удалении выброса от реальных центров основных кластеров (набор аа3) один из 
центров, полученных после ЕСМ кластеризации, расположен между основными класте- 
рами, а второй - в точке выброса. Результаты РСМ кластеризации также реагируют 
на местоположение выброса и оба центра основных кластеров сливаются в одну 
точку, расположенную между ними (рис. 125). Согласно результатам экспериментов 
можно сделать вывод, что метод вероятностной кластеризации РСМ в отличие от 
предложенного в работе метода не является устойчивым при удалении выброса от 
местоположения основных кластеров. 
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Рисунок 9 — Наборы данных, состоящие из двух кластеров и двух выбросов: 
а) набор данных Оаа2; Ъ) набор данных Оайа3 
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Рисунок 10 — Результат кластеризации с использованием МКК: 
а) набор данных Оаёа2; Ъ) набор данных Оайа3 
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Рисунок 11 — Результат кластеризации с использованием ЕСМ: 
а) набор данных Оаа2; 5) набор данных Оайа3 
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Рисунок 12 — Результат кластеризации с использованием РСМ: 
а) набор данных Райа2; 5) набор данных Оайа3 
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Метод оценки кластерной структуры и кластеризации данных 


5Н 


Таблица 1 — Координаты центров кластеров для набора данных Оаа2 


№ Реальные Координаты Координаты Координаты 
клас- | координаты центров, центров, центров, 
тера центров | полученные МКК полученные полученные 
методом методом ЕСМ методом РСМ 
(60, 150) (60.015, 150.008) | (137.241, 153.408) | (132.072, 151.576) 
й. (140, 150) | (139.984, 150.008) | (62.759, 153.409) (69.347, 151.814) 


Таблица 2 — Координаты центров кластеров для набора данных Вайа3 


№ Реальные Координаты Координаты Координаты 
клас- | координаты центров, центров, центров, 
тера центров полученные МКК полученные полученные 
методом методом ЕСМ методом РСМ 
1 (60, 150) (62.229, 150.766) (100, 151.674) (99.924, 152.367) 
2 (140, 150) | (137.771, 150.766) (100, 799.852) (98.584, 152.616) 
Заключение 


Предложенный МКК метод оценки кластерной структуры и кластеризации данных 
является устойчивым к инициализации параметров кластеризации, к выбросам в данных 
и позволяет распознавать различные по объему кластеры. Кластерная структура и коли- 
чество кластеров определяются в процессе самоорганизации объектов данных. При клас- 
теризации осуществляется поиск таких значений центров кластеров у,1=1,...,с, ко- 


торые максимизируют полную меру сходства объектов данных и кластерных центров. 
Для определения локально-оптимального количества кластеров и состава отдельных 
кластеров предлагается использовать агломеративную иерархическую кластеризацию 
значений центров кластеров, полученных в результате работы оптимизационного 
кластерного алгоритма. МКК метод может использоваться для осуществления предва- 
рительного анализа набора данных с целью выявления новых знаний или скрытых 
закономерностей, а также для последующего построения набора правил классификации, 
соответствующих отдельным кластерам. Направлением дальнейших исследований 
является разработка подхода к предварительной оценке кластерной структуры данных 
и выбора значений границ кластеров для реализации метода вероятностной класте- 
ризации РСМ. 
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Н.А. Новосьолова, 1.Е.Том 

Метод оцнки кластерно! структури 1 кластеризацй даних 

У статти розглядаеться проблема розробки метод1в кластеризаци, як! е стйкими до нппалзаци 
(кльюсть кластер1в 1 початков1 параметри кластер!в), до р1зних за об’емом кластерлв, до викид1в в 
даних. Пропонуеться метод ощнки кластерно1 структури 1 кластеризаци даних, який заснований на 
розрахунку значень близькост! об’екмв даних в багатовимрному ознаковому простор!. Метод е 
стйким до 1нщ1алзацй параметрав кластеризацй, до викидв в даних 1 дозволяе визначати кластерну 
структуру 1 юльюсть кластерв в ход! самоорган1заци об’ект!в даних. 


М№.А. №оуо5еота, Г.Е. Тот 

Метод о{ ЕуашабНоп о? Са$егто Эгисвеиге ап аа Сшуегто 

ТЬе рарег 15 4еусме ю Фе ргоМет о 4еуе!ортепё оЁ Фе сш$етие тефо4$, \УМсВ аге гоба$е ю 
пивайтаноп (пигабег оЁ сазегз ап4 па! стазег рагате{ег$), ю фе аегепе сазег уо[итез, №0 Фе 
опЙегз. [ 15$ ргорозе4 а шефо@ Юг езитаноп оЁ сазег збгасвте ап сазегте оЁ даа, Базе оп е 
еуа[лаНоп оЁ зппПагиу теазиге Бебуееп даа обес ш шиАитепз1опа! зрасе. ТВе ргорозе тео 1$ 
тоби$ё 140 пимаПтаноп оЁ са$егте рагатеегз, №0 оп Йегз ап аПо\уз Чейпоп оЁ са$ег збгасвге апа 
питбег оЁ с$ег$ ш Фе дайа зеЁ-огеати те ргосез$. 
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